查看原文
其他

PANDA姐的转录组入门(4):了解参考基因组及基因注释

2017-07-19 沈梦圆 沈梦圆

任务列表

  • 1.在UCSC下载hg19参考基因组;

  • 2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。

  • 3.截图几个基因的IGV可视化结构

  • 4.下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构

  • 5.了解IGV常识

在UCSC下载hg19参考基因组

这个对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。(http://www.bio-info-trainee.com/1985.html) 
基因组各种版本对应关系:http://www.bio-info-trainee.com/1469.html

  1. mkdir /mnt/d/rna_seq/data/reference && cd  /mnt/d/rna_seq/data/reference

  2. mkdir -p genome/hg19  && cd genome/hg19

  3. # nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &

  4. nohup axel http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &

  5. tar zvfx chromFa.tar.gz

  6. cat *.fa > hg19.fa

  7. rm chr*.fa

关于GRCh37/hg19 
GRCh37 is the Genome Reference Consortium Human genome build 37. 
hg19基因组大小是3G,压缩后八九百兆。

从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构

下载基因注释文件

官网:http://www.gencodegenes.org/releases/26lift37.html

  1. axel ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz

  2. gzip -d gencode.v26lift37.annotation.gtf.gz

下载安装IGV、BEDtool

官网:http://software.broadinstitute.org/software/igv/download 

  1. wget  https://github.com/arq5x/bedtools2/releases/download/v2.26.0/bedtools-2.26.0.tar.gz

  2. tar -zxvf  bedtools-2.26.0.tar.gz

  3. cd  bedtools2

  4. make

截图几个基因的IGV可视化结构

批量截图:TP53,KRAS,EGFR

  1. grep -w 'gene' gencode.v26lift37.annotation.gtf |grep  -w 'TP53'|cut -f 1,4,5 >>gene.bed

  2. grep -w 'gene' gencode.v26lift37.annotation.gtf |grep  -w 'KRAS'|cut -f 1,4,5 >>gene.bed

  3. grep -w 'gene' gencode.v26lift37.annotation.gtf |grep  -w 'EGFR'|cut -f 1,4,5 >>gene.bed

  4. /mnt/d/Software/Biosoft/bedtools2/bin/bedtools igv -i gene.bed >Bach_sanpshot.txt

  5. # perl -alne '{print "goto $F[0]:$F[1]-$F[2]\nsnapshot $F[3].png"} '


下载ENSEMBL,NCBI的gtf

  1. # ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/

  2. axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz

  3. axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.chr.gtf.gz

  1. # ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/

  2. # ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/

  3. axel  ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_top_level.gff3.gz

  4. axel ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_scaffolds.gff3.gz

最后来个小视频~

https://v.qq.com/txp/iframe/player.html?vid=p0527hrc4iv&width=500&height=375&auto=0

~ 再过五天,就可以看到我们伪植物学家胖胖同志 ~


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存